這週從一些名詞補充跟基礎概念開始講起,涵蓋了法規的舉例(D1)、技術應用與各式分類法,也在ML模型和數據匿名化技術的應用進行更詳細的探討。
在第二天📟 介紹了模型選擇、特徵提取、數據標註和模型訓練的過程,而第三天🦨 我們深入理解機器學習(ML)模型的核心基礎,從而更好理解這些模型如何處理大量且複雜的數據集,然後這些進階模型又是如何從基礎算法進化而來的(模型當然不只這些,很多演算都非常有意思,只是我選了一些較相關的)。
第四天🧙🏻 說明自然語言處理中的命名實體識別(NER)、語義分析、實體關係抽取等技術,強調AI技術在實際應用中的潛力。
五六天🥷🏻 著重在數據匿名化和假名化,討論了像k-匿名化、l-多樣性等更高階的數據保護技術,這些概念對於隱私風險的防範至關重要,尤其是要處理大量數據。
然而,在許多資料匿名化技術中,我們經常面臨一個挑戰:在保護個人隱私的同時,如何能夠從資料中提取有用的資訊? 傳統技術,如:資料遮蔽、k-匿名等,雖然能達到一定的保護效果,但在面對大型資料集或進行交叉分析時,這些方法可能無法完全避免隱私洩漏的風險。
為了解決這些問題,差分隱私技術應運而生,在資料中引入噪音(第六天有提到!)來保護資料,並確保即使外界擁有其他輔助資訊,也無法確定某一特定個人數據是否存在於資料集中。這種方法不僅強調隱私保護的重要性,還保證了資料的整體可用性。
明天會是新的週主題,會從我提到的差分隱私技術下手,掰!